長い時系列を生成するための注意機構 Generating Long Sequences with Sparse Transformers
TL;DR
Transformerの注意機構を時系列向けにスパースにすることによって、
計算効率が高く・長い時系列向けのTransformerを開発することができた。
Information
Important Feature 1
https://gyazo.com/47db74ec2340524e1a1136bfb98cb86a
(a) 通常のTransformerが全部のそれ以前のピクセルに対して注目するのに対して
(b)strided Transformerは、簡単に言うと列情報と行情報にのみ着目する
(c)fixed Transformerは直近数ピクセルとその前のカラムについて着目する
Important Feature 2
画像生成系のタスクでベンチマークに勝っている。
https://gyazo.com/d949b00ddad2e219f0da05166fbc3f23
実際に下半分を隠して生成された画像
https://gyazo.com/0a5785a440aebdd0b8b13c5502f77a50
生成された音楽